无人驾驶飞机(UAV)通过低成本,大型覆盖,实时和高分辨率数据采集能力而广泛应用于检查,搜索和救援行动的目的。在这些过程中产生了大量航空视频,在这些过程中,正常事件通常占压倒性的比例。本地化和提取异常事件非常困难,这些事件包含手动从长视频流中的潜在有价值的信息。因此,我们致力于开发用于解决此问题的异常检测方法。在本文中,我们创建了一个新的数据集,名为Droneanomaly,用于空中视频中的异常检测。该数据集提供了37个培训视频序列和22个测试视频序列,这些视频序列来自7个不同的现实场景,其中包括各种异常事件。有87,488个彩色视频框架(训练51,635,测试35,853),每秒30帧的尺寸为640美元\ times 640美元。基于此数据集,我们评估现有方法并为此任务提供基准。此外,我们提出了一种新的基线模型,即变压器(ANDT)的异常检测,该模型将连续的视频帧视为一系列小管,它利用变压器编码器从序列中学习特征表示,并利用解码器来预测下一帧。我们的网络模型在训练阶段模型正常,并确定了具有不可预测的时间动力学的事件,作为测试阶段的异常。此外,为了全面评估我们提出的方法的性能,我们不仅使用无人机 - 异常数据集,而且使用另一个数据集。我们将使我们的数据集和代码公开可用。可以在https://youtu.be/ancczyryoby上获得演示视频。我们使数据集和代码公开可用。
translated by 谷歌翻译
由于其低成本和快速移动性,无人驾驶汽车(UAV)现在已广泛应用于数据获取。随着航空视频量的增加,对这些视频自动解析的需求正在激增。为了实现这一目标,当前的研究主要集中于在空间和时间维度沿着卷积的整体特征提取整体特征。但是,这些方法受到小时接收场的限制,无法充分捕获长期的时间依赖性,这对于描述复杂动力学很重要。在本文中,我们提出了一个新颖的深神经网络,称为futh-net,不仅为整体特征建模,而且还模拟了空中视频分类的时间关系。此外,在新型融合模块中,多尺度的时间关系可以完善整体特征,以产生更具歧视性的视频表示。更特别地,FUTH-NET采用了两条道路架构:(1)学习框架外观和短期时间变化的一般特征的整体代表途径,以及(2)捕获跨任意跨越任意时间关系的时间关系途径框架,提供长期的时间依赖性。之后,提出了一个新型的融合模块,以时空整合从这两种途径中学到的两个特征。我们的模型对两个航空视频分类数据集进行了评估,即ERA和无人机操作,并实现了最新结果。这表明了其在不同识别任务(事件分类和人类行动识别)之间的有效性和良好的概括能力。为了促进进一步的研究,我们在https://gitlab.lrz.de/ai4eo/reasoning/futh-net上发布该代码。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
事实证明,深度学习是高光谱图像(HSI)分类的一种非常有效的方法。但是,深度神经网络需要大量注释的数据集来概括地概括。这限制了深度学习对HSI分类的适用性,在该分类中,为每个场景手动标记成千上万的像素是不切实际的。在本文中,我们建议利用自我监督学习(SSL)进行HSI分类。我们表明,通过使用Barlow-Twins(一种最先进的SSL算法)在未标记的像素上预先培训编码器,我们可以获得具有少数标签的准确模型。实验结果表明,这种方法明显优于香草的监督学习。
translated by 谷歌翻译
地球表面不断变化,识别变化在城市规划和可持续发展中发挥着重要作用。虽然多年来已经成功开发了变化检测技术,但这些技术仍然仅限于相关领域的专家和促进者。为了为每个用户提供灵活的进入更改信息并帮助他们更好地了解陆地覆盖的变化,我们介绍了一种新的任务:在多时间空中图像上更改基于检测的视觉问题应答(CDVQA)。特别地,可以查询多时间图像以根据两个输入图像之间的内容改变获得基于高电平的改变的信息。我们首先使用自动问题答案生成方法构建CDVQA数据集,包括多时间图像问题答案三联网。然后,在这项工作中设计了一个基线CDVQA框架,它包含四个部分:多时间特征编码,多时间融合,多模态融合和答案预测。此外,我们还将更改增强模块引入多时间特征编码,旨在结合更多的变更相关信息。最后,研究了CDVQA任务的性能研究不同骨干和多时间融合策略的影响。实验结果为开发更好的CDVQA模型提供了有用的见解,这对未来对此任务的研究很重要。我们将通过公开提供我们的数据集和代码。
translated by 谷歌翻译
从合成孔径雷达(SAR)图像建立高度检索,对于城市应用来说,对于城市应用来说,对于SAR数据的复杂性来说,这一极为重视。本文从单个Terrasar-X Spotlight或Stribmap图像中解决了大型城市地区建立高度检索问题的问题。基于雷达观看几何形状,我们提出该问题可以作为边界框回归问题制定,因此允许将高度数据集成在更大的规模上生成地面真实。我们从地理信息系统(GIS)数据中的建筑占用脚印作为互补信息,并提出了一种限制框回归网络,该网络利用建筑物占地面积与其边界框之间的位置关系,允许快速计算。这对于大型应用来说很重要。在高分辨率聚光灯和RILTMAP模式下,使用Terrasar-X图像在四个城市数据集上验证该方法。实验结果表明,与基于速度的R-CNN的方法相比,所提出的网络可以显着降低计算成本,同时保持各个建筑物的高度精度。此外,我们调查了GIS数据对我们所提出的网络的影响,并且本研究表明边界框回归网络对GIS数据中的定位误差具有稳健。该方法具有适用于区域甚至全球范围的潜力。
translated by 谷歌翻译
用于图像分类的最可公开的数据集是单个标签,而图像在我们的日常生活中是固有的多标记。这种注释差距使得许多预先接受的单标准分类模型在实际情况下失败。该注释问题更加关注空中图像:从传感器收集的空中数据自然地覆盖具有多个标签的相对大的陆地面积,而被广泛可用的注释空中数据集(例如,UCM,AID)是单标记的。作为手动注释的多标签空中图像将是时间/劳动,我们提出了一种新的自我校正综合域适应(SCIDA)方法,用于自动多标签学习。 SCIDA是弱监督,即,自动学习多标签图像分类模型,从使用大量的公共可用的单一标签图像。为实现这一目标,我们提出了一种新颖的标签 - 明智的自我校正(LWC)模块,以更好地探索潜在的标签相关性。该模块还使无监督的域适配(UDA)从单个到多标签数据中可能。对于模型培训,所提出的型号仅使用单一标签信息,但不需要先验知识的多标记数据;它预测了多标签空中图像的标签。在我们的实验中,用单标签的MAI-AID-S和MAI-UCM-S数据集接受培训,所提出的模型直接在收集的多场景空中图像(MAI)数据集上进行测试。
translated by 谷歌翻译
语义变化检测(SCD)扩展了多级变化检测(MCD)任务,不仅提供了更改位置,而且提供了观察间隔之前和之后的详细覆盖/土地使用(LCLU)类别。这种细粒度的语义变更信息在许多应用中非常有用。最近的研究表明,SCD可以通过三分支卷积神经网络(CNN)进行建模,其包含两个时间分支和变化分支。然而,在这种架构中,时间分支和改变分支之间的通信不足。为了克服现有方法中的限制,我们提出了一种用于SCD的新型CNN架构,其中语义时间特征在深CD单元中合并。此外,我们详细说明了这种架构,以推理双颞态语义相关性。由此产生的双时话语义推理网络(BI-SRNET)包含两种类型的语义推理块,以推理单时段和跨时话语义相关性,以及提高改变变化检测结果的语义一致性的新型损失功能。基准数据集上的实验结果表明,该架构对现有方法获得了显着的准确性改进,而Bi-SRNET中的添加设计则进一步提高了语义类别和改变区域的分割。本文的代码可访问:github.com/gnsding/bi-srnet。
translated by 谷歌翻译
Temporal sentence grounding (TSG) aims to identify the temporal boundary of a specific segment from an untrimmed video by a sentence query. All existing works first utilize a sparse sampling strategy to extract a fixed number of video frames and then conduct multi-modal interactions with query sentence for reasoning. However, we argue that these methods have overlooked two indispensable issues: 1) Boundary-bias: The annotated target segment generally refers to two specific frames as corresponding start and end timestamps. The video downsampling process may lose these two frames and take the adjacent irrelevant frames as new boundaries. 2) Reasoning-bias: Such incorrect new boundary frames also lead to the reasoning bias during frame-query interaction, reducing the generalization ability of model. To alleviate above limitations, in this paper, we propose a novel Siamese Sampling and Reasoning Network (SSRN) for TSG, which introduces a siamese sampling mechanism to generate additional contextual frames to enrich and refine the new boundaries. Specifically, a reasoning strategy is developed to learn the inter-relationship among these frames and generate soft labels on boundaries for more accurate frame-query reasoning. Such mechanism is also able to supplement the absent consecutive visual semantics to the sampled sparse frames for fine-grained activity understanding. Extensive experiments demonstrate the effectiveness of SSRN on three challenging datasets.
translated by 谷歌翻译
Semi-supervised learning (SSL) has made significant strides in the field of remote sensing. Finding a large number of labeled datasets for SSL methods is uncommon, and manually labeling datasets is expensive and time-consuming. Furthermore, accurately identifying remote sensing satellite images is more complicated than it is for conventional images. Class-imbalanced datasets are another prevalent phenomenon, and models trained on these become biased towards the majority classes. This becomes a critical issue with an SSL model's subpar performance. We aim to address the issue of labeling unlabeled data and also solve the model bias problem due to imbalanced datasets while achieving better accuracy. To accomplish this, we create "artificial" labels and train a model to have reasonable accuracy. We iteratively redistribute the classes through resampling using a distribution alignment technique. We use a variety of class imbalanced satellite image datasets: EuroSAT, UCM, and WHU-RS19. On UCM balanced dataset, our method outperforms previous methods MSMatch and FixMatch by 1.21% and 0.6%, respectively. For imbalanced EuroSAT, our method outperforms MSMatch and FixMatch by 1.08% and 1%, respectively. Our approach significantly lessens the requirement for labeled data, consistently outperforms alternative approaches, and resolves the issue of model bias caused by class imbalance in datasets.
translated by 谷歌翻译